WeaveBench: Benchmark realista de largo horizonte para agentes híbridos Descubre WeaveBench, el nuevo benchmark que evalúa agentes de IA en tareas híbridas de GUI, CLI y código a largo plazo. Solo el 41.2% de éxito revela una brecha crítica. 2026-06-09 · 1 min